ยินดีต้อนรับสู่การเปลี่ยนผ่านจากพฤติกรรมการใช้ประโยชน์จากปัญญาประดิษฐ์อย่างเฉื่อยชา สู่การควบคุมและจัดการปัญญาประดิษฐ์อย่างมีพลัง ในการเข้าใจ 'พนักงานดิจิทัล' เราจำเป็นต้องแยกแยะระหว่างบอทแชทมาตรฐานกับ ผู้กระทำอัตโนมัติ โดยที่การโต้ตอบแบบเดิมของโมเดลภาษาขนาดใหญ่ (LLM) เป็นเชิงตอบสนอง — พึ่งพาโครงสร้างง่าย ๆ ว่า ข้อมูลนำเข้า → ผลลัพธ์ แต่ผู้กระทำอัตโนมัติจะทำงานภายในวงจรซ้ำซ้อนที่กำหนดโดยสูตร:
$$ \text{เป้าหมาย} + \text{เหตุผล} + \text{เครื่องมือ} = \text{ผลลัพธ์} $$
1. โมเดลภาษาขนาดใหญ่ (LLM) ที่เป็นหน่วยประมวลผลหลัก
ในสถาปัตยกรรมนี้ โมเดลภาษาขนาดใหญ่ (LLM) ทำหน้าที่เป็น 'สมอง' หรือหน่วยประมวลผลกลาง มีความสามารถทางตรรกะและความสามารถด้านภาษา แต่เพื่อให้มันทำงานได้เหมือนพนักงาน ต้องอาศัยกรอบการทำงานที่รองรับการคงอยู่และการดำเนินการ
2. สามเสาหลักของสถาปัตยกรรมผู้กระทำ
เพื่อให้สมองนี้มีประสิทธิภาพ ต้องอาศัยสามเสาหลัก:
- การวางแผน: การแบ่งเป้าหมายที่ซับซ้อนออกเป็นงานย่อย
- ความจำ: การเก็บข้อมูลบริบทจากการโต้ตอบครั้งก่อน และข้อมูลระยะยาว
- การกระทำ: การดำเนินงานในโลกดิจิทัลผ่านเครื่องมือ
เราไม่ได้แค่สั่งงานเท่านั้น แต่เรากำลังออกแบบระบบให้สามารถรับรู้สภาพแวดล้อมและปรับปรุงตนเองเมื่อพบข้อผิดพลาด
การตัดสินใจเกิดขึ้นเมื่อผู้กระทำเปรียบเทียบราคาของเที่ยวบินสามเที่ยว และเลือกเที่ยวที่มีราคาถูกที่สุดตามเกณฑ์ของผู้ใช้